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摘要 : 【 目的 ] 通过 对 以 互联 网 为 媒介 的 新 闻 报 道 的 主题 演化 研究 ,分 析 新 闻 主 题 的 产生 、 发 展 和 演变 过 程 , 把 


握 媒 体 奥 论 方向 。[ 方法 ] 引入 流 形 学 习 构 建 全 局 时 间 跨 度 的 新 闻 主 题 关 联 关系 , 挖掘 由 LDA 主题 模型 识别 得 
到 的 各 个 时 间 窗 口 的 高 维 主题 向 量 间 的 关系 , 在 低 维 平 面 上 实现 主题 聚 类 和 相互 关联 的 可 视 化 ,提出 利用 社会 


网 络 理论 指标 分 析 主 题 的 演化 结 


。【 结果 ] 利用 2015 年 美国 有 线 电 视 新 闻 网 对 中 国 的 新 闻 报 道 进行 主题 关系 


构建 和 演化 , 结果 表明 该 方法 能 够 发 现 主题 在 全 局 时 间 跨 度 的 演化 趋势 。[ 局 限 ] 时 间 窗 口 长 度 对 主题 演化 的 效 
果 和 可 变 时 间 窗 口 长 度 机 制 没 有 涉及 。【 结论 ] 新 闻 主题 演化 分 析 方 法 能 够 在 低 维 可 视 平面 上 描绘 主题 在 全 局 时 
间 跨 度 的 演化 , 避免 主题 由 于 相 邻 时 间 窗 口 关联 失效 而 导致 全 局 演化 路 径 的 断裂 。 


关键 词 : 潜在 狄 利克 雷 分 配 模型 
分 类 号 : TP393 G354 


流 形 学 习 ”主题 关联 主题 演化 


1 3 引 


随 着 信息 技术 的 发 展 , 互联 网 已 成 为 信息 传播 的 
重要 渠道 , 被 公认 为 是 继 报 纸 、 广 播 、 电 视 之 后 的 “第 
四 媒体 01。 研究 以 互联 网 为 媒介 的 西方 主流 媒体 对 中 
国 的 新 闻 报 道 , 有 助 于 了 解 西 方 媒体 中 的 中 国 形象 ， 
把 握 国 外 鼻 论 的 发 展 方向 。 新 闻 报道 的 主题 演化 是 指 
新 闻 报道 的 主题 内 容 与 强度 在 研究 过 程 中 变化 的 现 
象 , 一 般 经 历 从 提出 、 发 展 、 豪 亡 到 最 后 结束 的 过 程 。 
例如 天 津 塘沽 大 爆炸 事件 ,美国 主流 媒体 有 线 电视 新 
闻 网 (Cable News Network CNN) 2015 年 8 月 13 号 第 
一 次 进行 报导 ,随后 在 14-21 号 每 天 都 有 相关 新 闻 追 
踪 , 而 27 号 是 最 后 一 次 报导 ,意味 着 该 事件 主题 的 结 
束 。, 可见, 随 着 时 间 的 变化 ,西方 媒体 对 中 国 的 新 闻 报 


了 中 


道 主题 也 随 着 变迁 ， 如 何 描述 新 闻 主 题 的 演变 过 程 是 
目前 研究 的 难点 外。 

潜在 狄 利克 雷 分 配 (Latent Dirichlet Allocation, 
LDA) 模 型 中 是 模拟 文档 生成 过 程 的 主题 模型 ， 其 参数 
空间 的 规模 与 文档 数量 无 关 , 适合 处 理 大 规模 语 料 ， 
因此 近年 来 成 为 主题 演化 研究 的 重要 途径 之 一 。 和 常见 
的 思路 是 利用 LDA 模型 获取 不 同时 间 段 的 主题 及 其 
关键 词 , 将 相 邻 时 间 窗 口 的 主题 根据 关键 词 的 近似 程 
度 采 取 阔 值 法 所 或 最 大 相似 度 法 口 进行 关联 ， 再 从 相 
邻 时 间 窗 口 建立 的 主题 关联 关系 观察 多 个 时 间 窗 口 的 
主题 演变 。 

然而 , 基于 相 邻 时 间 窗 口 的 主题 演化 分 析 方 法 不 
能 直接 应 用 于 新 闻 报道 的 主题 演化 , 原因 有 两 点 。 首 
先 , 基于 相 邻 时 间 窗 口 的 主题 演变 关系 建立 容易 因为 
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某 个 相 邻 窗口 的 主题 关联 出 错 而 导致 整个 主题 链 的 演 
变 失 效 。 例 如 ， 某 个 主题 的 演变 经 过 时 间 窗 口 [tlL，t2， 
3, 4], 但 由 于 在 [t2, t3] 相 邻 时 间 窗 口内 该 主题 的 关联 
出 错 ( 可 能 由 于 阔 值 设置 过 大 或 者 相似 度 计 算 有 误 ) 使 
得 该 主题 的 全 局 演变 过 程 断裂 。 其 次 ,新 闻 报 道 的 主题 
具有 突 发 性 和 时 间 间 隔 性 , 使 得 新 闻 主 题 的 演化 规律 
并 不 一 定 遵循 相 邻 时 间 窗 口 跨 度 。 例 如 2015 年 6 月 
CNN 网 站 针对 中 国 南海 问题 进行 相关 报道 , 在 间隔 7 
月 、8 月 之 后 , 9 月 和 10 月 又 有 中 国 南 海 问题 的 相关 报 
道 , 可见 新 闻 报 道 主题 的 演化 时 间 跨 度 具 有 不 确定 性 。 

针对 上 述 两 个 问题 ,本文 提 出 将 流 形 学 习 
(Manifold Learning)m 引 入 到 新 闻 主 题 的 关系 构建 和 演 
化 研究 , 定义 新 闻 主 题 的 演化 关系 并 不 局 限于 传统 的 
相 邻 时 间 间 隔 的 主题 演化 ,而 是 从 全 局 时 间 跨 度 分 析 
两 个 主题 的 关联 关系 。 通 过 从 整体 上 对 各 个 时 间 窗 口 
内 的 主题 进行 关联 分 析 , 以 期 获得 主题 在 全 局 时 间 上 
的 演变 关系 ,经 过 LDA 模型 抽取 得 到 的 主题 表现 为 高 
维度 的 特征 词 向 量 , 采用 现 有 的 相似 度 计算 方法 进行 
全 局 时 间 上 的 主题 关联 因为 “高 维 数 灾难 ”而 变 得 十 
分 困难 。 例如 有 5 个 时 间 窗 口 , 每 个 时 间 窗 口 有 10 个 
主题 , 每 个 主题 的 向 量 维度 为 1 000 维 , 利用 相似 度 方 
法 进行 全 局 时 间 上 的 主题 关联 需要 4x10’ 时 间 复 杂 度 
((5-Dx10x103 x103)。 而 流 形 学 习 技 术 可 以 挖掘 高 维 
主题 向 量 之 间 隐 藏 的 关联 关系 ,找到 高 维 空间 中 的 低 
维 流 形 ， 并 求 出 主题 在 相应 的 低 维 空间 的 租 入 映射 ， 
实现 维 数 约 简 和 可 视 化 , 使 得 进一步 利用 社会 网 络 分 
析 相 关 指 标 分 析 主 题 演变 规律 变 为 可 能 。 本 文 的 创新 
点 与 贡献 总 结 如 下 : 

(1) 借鉴 图 像 处 理 和 机 器 学 习 领 域 中 的 非 线性 降 
维 思 想 ,， 引 入流 形 学 习 方 法 挖掘 由 LDA 模型 抽取 得 到 
的 各 个 时 间 窗 口 的 高 维 主 题 向 量 , 一 方面 在 低 维 平面 
上 可 视 化 高 维 主 题 向 量 间 的 关系 , 另 一 方面 将 非 线 性 
降 维 的 结果 与 余弦 相似 度 结合 ， 重 新 定义 低 维 平面 上 
主题 之 间 的 距离 ,实现 全 局 时 间 窗 口 的 主题 关联 。 

(2) 高 维 主题 向 量 经 非 线性 降 维 后 表现 为 一 个 小 
型 的 社会 网 络 : 主题 表征 为 低 维 平 面 上 的 节点 ， 节 点 
的 远近 反映 主题 之 间 的 距离 ， 节 点 的 边 为 主题 的 关联 
边 。 因 此 利用 社会 网 络 理论 的 4 种 度量 指标 来 分 析 主 
题 的 演化 , 识别 主题 演化 过 程 中 影响 力 大 的 主题 、 活 
跃 的 主题 以 及 主题 演化 网 络 的 整体 属性 等 。 


区 了 现代 图 书 情报 技术 


(3) 以 美国 CNN 网 站 对 中 国 的 相关 新 闻 报 道 为 例 
验证 了 所 提 方 法 的 有 效 性 和 准确 性 。 


2 相关 研究 工作 


早期 对 主题 演化 的 研究 主要 是 将 文档 的 时 间 信 息 
引入 到 LDA 模 型 或 其 变形 模型 中 , 并 利用 连续 的 时 间 
信息 指导 文档 集中 主题 的 分 布 ， 如 连续 时 间 模 型 
TOTII、 动 态 主 题 模型 DTMHMI。 但 该 方法 无 法 对 新 文 
档 进 行 扩展 ， 新 文档 加 入 后 必须 重新 建 模 。 

近年 来 对 主题 演化 研究 主要 有 两 种 思路 : 一 种 是 
先 对 整个 文档 集合 运用 LDA 获取 主题 , 再 从 时 间 上 将 
主题 划分 为 各 个 子 集 , 分 析 主 题 在 各 个 子 集 上 的 分 布 
从 而 得 到 主题 的 演化 规律 ( 。 另 一 种 是 先 对 整个 文档 
集合 按照 时 间 信 息 离 散 到 各 个 时 间 窗 口 , 再 利用 LDA 
获取 各 个 时 间 窗 口内 的 主题 , 最 后 将 相 邻 时 间 窗 口 的 
主题 关联 , 得 到 主题 演化 过 程 P ”21。 这 两 种 方法 各 有 
其 局 限 性 。 前 一 种 方法 依赖 于 时 间 粒 度 的 选取 ,时 间 
粒度 的 取 值 直接 影响 演化 的 准确 性 。 后 一 种 方法 中 ， 
相 邻 时 间 窗 口 的 主题 关联 是 分 析 主 题 演 化 的 重要 步 
又 , 不 同 的 关联 方法 将 得 到 不 同 的 演化 结果 。 例 如 , 楚 
克明 等 中 通过 计算 相 邻 时 间 段 中 任意 两 个 主题 的 特征 
向 量 相似 度 实 现 主题 关联 度 分 析 ， 该 方法 对 阔 值 大 小 
比较 敏感 并 且 阔 值 的 确定 需要 较 强 的 专业 知识 。 崔 凯 
等 上 使 用 Kullback Leibler 相对 炳 来 计算 主题 的 相似 
性 从 而 建立 关联 , 但 得 到 的 主题 演化 都 是 一 对 一 的 ， 
与 科学 研究 中 主题 的 融合 、 交 叉 等 现象 不 完全 吻合 。 

此 外 , 为 了 提高 阔 值 法 或 相似 度 法 的 主题 关联 准 
确 性 ， 相 关 文 献 提出 了 特征 词 过 滤 呈 和 主题 关联 过 滤 
的 方法 上 。 由 冰 值 法 或 相似 度 法 建立 主题 关联 后 , 定义 
过 滤 规 则 去 除 无 效 的 关联 来 提高 主题 关联 的 准确 性 ， 
但 其 效果 的 提高 过 度 依赖 于 过 渡 规 则 的 定义 ， 过 滤 规 
则 对 于 不 同 领 域 的 主题 不 具有 普 适 性 。 

总 体 而 言 , 不 管 是 先 获取 主题 再 从 时 间 上 划分 子 
集 分 析 主 题 演 化 , 还 是 先 划分 时 间 窗 口 再 获取 主题 从 
而 得 到 主题 演化 , 现 有 研究 都 是 从 相 邻 时 间 窗 口 构建 
主题 的 演化 关系 。 一 方面 容易 因为 相 邻 窗口 内 的 主题 
关联 出 错 使 得 全 局 演化 过 程 断裂 ; 另 一 方面 新 闻 报 道 
主题 演化 的 时 间 跨 度 具 有 随机 性 , 不 一 定 遵循 相 邻 时 
间 窗 口 的 跨度 。 

为 了 解决 上 述 两 个 问题 , 本文 从 一 个 全 新 的 角度 ， 


| 


首次 引入 流 形 学 习 方 法 从 全 局 时 间 跨 度 、 而 非 相 邻 时 
间 窗 口 跨度 构建 新 闻 的 主题 关系 , 并 利用 社会 网 络 相 
关 分 析 指 标 衡 量 主题 演化 的 结果 。 流 形 学 习 近 年 来 被 
广泛 应 用 在 数据 挖掘 、 机 器 学 习 、 模 式 识别 等 领域 ,其 
作为 解决 非 线性 降 维 问题 的 方法 ,在 挖掘 高 维 数据 集 
的 固有 特征 分 布 和 结构 特点 方面 具有 优势 (0 。 经 过 
LDA 抽取 的 主题 表征 为 非 线 性 、 高 维度 的 特征 词 向 量 ， 
若 采 用 现 有 的 相似 度 计算 方法 将 由 于 “高 维 数 灾难 ” 难 
以 进行 全 局 时 间 跨 度 的 主题 关联 ,而 流 形 学 习 能 够 挖 
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掘 高 维度 主题 向 量 之 间 列 含 的 关联 关系 ,将 其 映射 到 

低 维 空间 ,使 得 全 局 时 间 跨 度 的 新 闻 主 题 关系 构建 和 

主题 演化 分 析 变 为 可 能 。 

3 ”基于 流 形 学 习 的 新 闻 主 题 关 系 构 建 和 演化 
分 析 


3.1 基本 思路 
本 文 提 出 的 基于 流 形 学 习 的 新 闻 主 题 演化 关系 
构建 和 演化 方法 的 基本 流程 如 图 1 所 示 : 


时 间 窗 口 t 


1 题 | 1. 确定 主题 数 
1 识 | 2. LDA 抽 取 主 题 


Si 个 |V| 维 的 主题 


图 1 基于 流 形 学 习 的 新 闻 主 题 演化 方法 流程 图 


(1) 将 时 间 序 列 划 分 为 若干 个 长 度 固 定 的 时 间 窗 
口 , 根据 时 间 将 文本 划 入 到 相应 的 时 间 窗 口 , 利用 
LDA 模型 抽取 每 个 时 间 窗 口 的 主题 , 并 将 主题 表示 为 
高 维特 征 词 向 量 的 形式 。 

(2) 将 得 到 的 多 个 高 维 主 题 向 量 利用 流 形 学 习 算 
法 进行 非 线 性 降 维 , 绪 得 每 个 主题 向 量 的 低 维 度 陪 入 
变量 以 及 主题 关联 边 。 


(3) 为 主题 关联 边 赋予 权重 , 确定 主题 间 的 关联 
(4) 利用 社会 网 络 指标 分 析 主 题 关 联 关 系 , 分 析 
主题 的 演化 特征 。 
(5) 得 到 新 闻 主 题 演化 结果 。 
3.2 ”新 闻 主 题 的 定义 和 识别 
新 闻 报 道 的 主题 表现 为 媒体 对 某 一 特定 事件 及 其 
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所 有 相关 事件 的 集合 (简称 主题 )。 给 定 D 个 新 闻 报 道 
文本 , 用 集合 C = {di,d,,…,dp} 表示 。V 为 所 有 文本 不 
相同 单词 构成 的 词汇 集合 。 将 主题 定义 为 一 组 语义 上 
相关 的 词 及 词语 主题 相关 的 权重 的 向 量 表示 号 
工 ={vbpD(v2p2) (vepk) (vivbplvD} (1) 

其 中 ，v eV 是 与 主题 T 相 关 的 词 ，p, 是 主题 T 
在 该 词 上 的 分 布 概率 。 

将 时 间 序 列 划 分 为 n 个 长 度 为 工 的 时 间 窗 口 , 依 
据 时 间 将 集合 C 中 新 闻 报 道 划 分 到 相应 的 时 间 和 窗口， 
C, 表示 时 间 和 窗口 t 的 新 闻 报道 集合 。 采 用 LDA 模型 
对 Ci,tel[l,n] 抽 取 主 题 .。 LDA 模型 是 一 个 三 层 贝 叶 斯 
文本 主题 生成 模型 ， 可 以 发 现任 何 离散 数据 中 潜在 的 
主题 结构 。 其 基本 思想 是 : 假设 文档 由 若干 个 潜在 主 
题 的 混合 组 成 ,而 每 个 主题 由 若干 个 词 的 分 布 刻 画 。 

LDA 设立 参数 a 作为 文本 集合 的 主题 先 验 超 参数 ， 
PB 为 主题 集合 的 词汇 先 验 超 参数 , 使 得 每 篇 文本 服从 
参数 为 a 的 Dirichlet 分 布 , 每 个 主题 服从 参数 为 B 的 
Dirichlet 分 布 。 给 定 文本 集合 , 根据 Gibbs 采样 计算 
出 文本 -主题 概率 分 布 46 和 主题 - 词 分 布 p 如 下 : 


mes[D],is[ISH CO) 
n+|1S|a 


pik = ie[l,lSIk el VI G) 


> n+ [Via 
j=1 
其 中 ，9,; 为 文本 d, 属于 主题 T 的 概率 ，ng 表 
示 文 本 du 中 赋予 主题 了 的 词 的 总 数 。pi 为 主题 工 出 
现 单词 vi 的 概率 ，nt9 表示 词 vi 被 赋予 主题 T 的 总 
次 数 。S 为 LDA 抽取 的 主题 集合 。 
结合 公式 (1) 的 定义 和 LDA 模型 ， 笔 者 将 时 间 窗 
口 t 内 文档 集合 C; 的 主题 表示 为 : 
Ti = {V1, 81), (V2, Pi2)77, (Ves Pte), (Vv iv)} (9 
其 中 ，1 科 i 科 SS ，Si 为 时 间 窗 口 t 内 的 主题 数目 ， 
T 的 向 量 维度 为 |V | 维 。v. seV，ik 由 LDA 模型 计 
算得 到 , 为 主题 T; 出 现 单词 vl 的 概率 。 
每 个 时 间 窗 口内 的 新 闻 报 道 数 不 同 , 相应 的 主题 
数 也 随 之 动态 变化 。Si 的 最 佳 值 采用 统计 语言 模型 中 
常用 的 评价 标准 一 一 困惑 度 (Perplexity)" 进行 选取 ， 
计算 如 下 : 
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> InP(d) 
Perplexity(C) = exp{- eh 一 G 
Nm 
m=] 

其 中 ，N。 表示 第 m 篇 新 闻 报 道 的 长 度 ，P(d,) 
表示 模型 产生 第 m 篇 新 闻 报道 的 概率 。 困 惑 度 的 值 越 
小 , 性 能 越 好 。 在 其 他 参数 确定 的 情况 下 , 通过 对 Sl 
取 不 同 值 进行 困惑 度 的 计算 和 分 析 , 选取 得 到 最 优 主 
题 数 目的 S, 值 。 

对 nm 个 时 间 窗 口 分 别 抽取 主题 ， 笔 者 将 总 的 主题 
集合 TopicSet 以 及 总 主题 数 $ 定义 为 : 


TopicSet =(T11, Tne; Tt, Tr; Th, TD) (6) 


S=- ys， O) 


3.3 ”基于 流 形 学 习 的 主题 演化 关系 构建 

主题 演化 反映 了 主题 变化 的 过 程 ， 主题 的 演化 在 
时 间 上 存在 延续 性 ,对 n 个 时 间 窗 口 的 文本 经 LDA 识 
别 , 得 到 的 主题 表现 为 $S 个 |V| 维 的 特征 词 向 量 ， 当 
1V1 较 大 时 使 得 挖掘 主题 间 的 演化 关系 变 得 困难 。 本 
文 利用 流 形 学 习 对 高 维度 的 主题 向 量 进行 降 维 , 并 构 
建 主 题 演 化 关系 。 

流 形 学 习 是 一 种 非 线 性 降 维 方法 ,可 用 于 处 理 高 
维 数据 , 通过 对 高 维 空间 的 特征 数据 学 习 以 获 得 低 维 
的 隐 变 量 模 型 ， 即 找到 高 维 空间 中 的 低 维 流 形 ， 以 实 
现 维 数 约 简 和 可 视 化 。 图 2 展示 了 高 维 流 形 与 低 维 映 
射 的 关系 , 在 三 维 空间 中 的 “瑞士 重 卷 ”数据 分 布 模型 ， 
经 过 降 维 后 在 二 维 平 面 上 显示 各 个 数据 点 的 关系 "9。 


1 


Fa ~” 7 1 1 | 

X (D=3) Y (42 
图 2 高 维 流 形 向 低 维 空间 的 映射 

流 形 学 习 的 典型 实现 方法 包括 等 距 特征 映射 

(sometric Feature Mapping, ISOMAP)07 和 局 部 线性 扔 

入 (Locally Linear Embedding，LLE)D3 等 。 本 文采 用 


ISOMAP 算法 , 该 算法 主要 思想 是 利用 局 部 邻 域 的 欧 
氏 距 离 近 似 计算 数据 点 之 间 的 全 局 流 形 测 地 线 距 离 ， 
通过 建立 原 数 据 之 间 的 测 地 线 距离 与 降 维 数据 间 的 空 
间距 离 的 对 等 关系 从 而 实现 降 维 。ISOMAP 在 降 维 过 
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E 为 0-1 和 矩阵。 每 个 主题 Ti 表征 为 二 维 平 面 上 的 一 个 
点 ， 节 点 在 二 维 平 面 上 的 分 布 由 高 维 主题 向 量 的 测 地 
线 距 离 决定 , 反映 了 主题 之 间 的 相似 程度 。 节 点 越 密 
集 表示 具有 演化 关系 的 相似 主题 越 多 , 反之 则 越 少 。 


程 中 通过 计算 点 与 点 之 间 的 测 地 距离 ,并 采用 多 维 标 
度 法 (Multi-Dimensional Scaling，MDS)3 来 获取 全 局 
最 优 的 几何 结构 ， 从 而 准确 发 现 数据 流 形 潜在 的 参数 
空间 。 

为 了 得 到 高 维 主题 向 量 T; 的 特征, 需要 在 欧式 空 
间 Rs 找到 一 个 低 维度 区 域 Y; 反映 TeRMN 的 特征 
通常 d <<|V | 。 笔 者 将 主题 T, 在 欧式 空间 R4 的 低 维度 
梭 入 变量 Yi 定义 为 

Yi = {ys(D), yu(2),…, yu(d)}| Yt e Ra (8) 

其 中 ,，d 是 Yi 的 维度 。 算 法 1 将 上 述 S 个 |V| 维 
(|V |>>1) 的 主题 向 量 集合 TopicSet 进行 基于 ISOMAP 
的 高 维 主题 向 量 降 维 。 取 维度 空间 d 为 2, 笔者 将 
TopicSet 在 二 维 平面 的 乱入 变量 定义 为 : 

(Yi Yl2 YY (9) 

其 中 ，YY'; 为 ;的 低 维 租 入 变量 , 可 在 二 维 平面 
显示 ， 有 利于 直接 观察 主题 之 间 的 演化 关系 。 

算法 1 基于 ISOMAP 的 高 维 主题 降 维 算法 

输入 : TopicSet ; 

输出 : 每 个 主题 向 量 Ti 的 低 维度 嵌入 交 量 Yi 和 Yi 的 
邻 域 图 邻接 矩阵 E; 

执行 : 

建立 每 个 主题 Ti 的 邻 域 图 。 

根据 主题 向 量 之 间 的 距离 ,确定 主题 集合 中 哪些 主题 
为 邻居 主题 。 计 算 所 有 主题 之 间 的 欧 氏 距离 di(i,j)， 确定 每 
个 主题 的 K 个 最 近 主 题 , K 为 可 输入 变量 。 这 些 主题 的 邻居 
关系 被 描述 在 一 个 覆盖 采样 点 的 带 权 图 G 中 , 主题 之 间 的 
关系 以 链 路 权重 di(i,j) 表示 。 

@ 计 算 图 G 中 主题 之 间 的 测 地 线 距离 。 

根据 步骤 四 确定 的 图 G 和 两 两 主题 之 间 的 链 路 权重 
d1(i,j 站 ,计算 所 有 主题 之 间 的 最 短路 径 dc(i,j) ， 并 以 此 来 
估算 流 形 内 所 有 主题 之 间 的 测 地 线 距离 。 

回 构 建 低 维 度 的 谈 入 变量 Yu 和 Yi 的 邻 域 图 邻接 算 
阵 EE。 

对 于 步骤 @) 得 到 的 所 有 主题 之 间 的 最 短路 径 距 离 矩 阵 
Do ={do(i,j, 应 用 多 维 标 度 法 进行 降 维 , 创建 位 于 d- 维 
欧 氏 空间 内 的 低 维 谱 入 变量 Yi 和 Yi 的 邻 域 图 邻接 矩阵 E 。 

降 维 后 得 到 每 个 主题 的 低 维 度 仍 入 变量 Yi; 和 低 
维度 舱 入 变量 的 邻接 矩阵 E 。 其 中 ，Yi = (xuyyt) ， 
xi 和 yi 为 主题 Yi; 在 二 维 平面 的 横 坐 标 和 纵 坐 标 值 ， 


为 了 建立 全 局 时 间 跨 度 的 主题 关联 , 笔者 基于 余弦 相 
似 度 0” ,在 二 维 平面 上 重新 定义 任意 两 个 时 间 窗 口内 
的 主题 距离 为 : 

Sim(Yi, Yi;) = 

XHXCH)j 二 ytiydt+tj 

Xi ty x | XCF + yen 

0 Ei,Iaw))=0 

其 中 ，Y; 和 Yi 分别 为 时 间 窗口 {和 t+k 内 的 
主题 低 维度 能 入 变量 ， 
k 之 1。 EBE(Ii,Iwo;) =1 表 示 主 题 癌 量 Y; 和 Yooi 在 低 
维 般 入 平面 上 有 关联 边 , 反之 则 表示 主题 向 量 Yi 和 
Yu 关联 程度 低 , 将 其 相似 度 赋值 为 0。 
3.4 ”社会 网 络 指标 的 主题 演化 分 析 

一 个 社会 网 络 由 多 个 点 和 各 点 之 间 的 连 线 组 成 ， 
“点 ”是 各 个 社会 行动 者 ,“ 边 ”是 行动 者 之 间 的 各 种 社 
会 关系 。 高 维 的 主题 特征 向 量 经 过 ISOMAP 降 维 表现 
为 一 个 小 型 的 社会 网 络 : 由 主题 节点 之 间 的 相互 作用 
关系 形成 的 二 维 平 面 图 。 其 中 , 二 维 平面 上 节点 之 间 
的 距离 表征 主题 之 间 的 关系 和 相互 作用 程度 。 因 此 ， 
可 借鉴 社会 网 络 理论 的 4 种 度量 指标 0" 来 分 析 主 题 的 
演化 , 识别 演化 过 程 中 影响 力 大 的 主题 、 活 跃 主 题 和 
主题 演化 网 络 的 整体 属性 等 : 

(1) 度 (Degree), 以 连接 到 节点 的 边 的 数目 作为 度 
量 节 点 重要 性 的 依据 。 在 有 向 图 中 , 节点 的 度 包 括 点 
入 度 和 点 出 度 。 在 主题 构成 的 有 向 图 中 ， 如 果 一 个 主 
题 拥 有 更 高 的 度数 值 , 则 该 主题 与 很 多 其 他 主题 存在 
演变 关系 。 其 中 ， 人 度 值 越 高 , 则 在 演变 过 程 中 有 越 多 
主题 指向 到 该 主题 ; 出 度 值 越 高 , 则 该 主题 有 越 多 延 
续 主 题 。 度 数 仅 仅 描述 主题 所 产生 的 局 部 影响 力 , 无 
法 反映 主题 的 全 局 演变 情况 。 

(2) 介 数 中 心 度 (Betweeness Centrality)， 以 网 络 中 
经 过 该 节点 的 所 有 点 与 点 的 最 短路 径 的 数目 作为 度量 
依据 。 介 数 中 心 度 反 映 节点 的 信息 交互 能 力 ,可 用 来 
衡量 一 个 主题 作为 媒介 者 的 能 力 , 即 占据 在 其 他 两 个 
主题 演变 路 径 之 间 的 交互 能 力 。 在 主题 的 演变 分 析 中 ， 


E(TisTtrpyj)=1 (10) 


ieSi,JjeStrx, tell,n—1l), 
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通过 介 数 中 心 度 , 可 以 确定 比较 活跃 的 主题 。 
(3) 密度 (Density)， 是 一 个 网 络 图 中 实际 存在 的 


定 各 个 时 间 窗 口 的 最 优 主题 数 。 
表 1 数据 集 各 时 间 窗 口 所 含 新 闻 报 道 数 和 最 优 主题 数 


边 数 与 可 能 存在 的 最 多 边 数 的 比值 , 一 般 用 来 衡量 网 
络 图 的 全 局 凝聚 力 水 平 。 在 主题 构成 的 网 络 图 中 ， 密 
度 越 大 则 主题 的 演变 关系 越 复 杂 , 演化 关系 越 多 ; 密 
度 越 小 则 主题 的 演变 关系 越 简单 ,演化 关系 越 少 。 

(4) 直径 (Diameter), 将 网 络 中 最 长 测 地 线 的 长 度 
作为 度量 依据 , 测 地 线 是 给 定 两 点 之 间 最 短 的 路 径 。 
在 主题 演变 图 中 , 存在 多 条 测 地 线 , 而 直径 表征 主题 
演变 关系 上 最 长 的 演变 距离 跳 数 。 


4 实 验 


为 了 验证 基于 流 形 学 习 的 新 闻 主题 关系 构建 和 演 
化 分 析 方 法 的 有 效 性 , 实验 基于 GooSeeker 数据 爬 取 
平台 中 从 CNN 网 站 抓 取 了 2015 年 与 中 国 相关 的 新 闻 
报道 作为 文本 集 , 共 464 篇 新 闻 报道 。 对 文本 集 的 每 
一 篇 文档 进行 数据 预 处 理 , 包括 分 词 、 剔 除 停 用 词 、 


词 形 还 原 、 词 干 提取 、 提 取 关 键 词 等 。 

将 时 间 序 列 划 分 为 12 个 长 度 为 1 个 月 的 时 间 窗 
口 ,根据 新 闻 的 报导 时 间 将 其 划 入 到 相应 的 窗口 。 表 1 
列举 了 各 时 间 窗 口 的 新 闻 报 道 数 以 及 利用 公式 (5) 确 


新 闻 报 道 集 文档 数 最 优 主题 数 
2015 年 1 月 27 5 
2015 年 2 月 16 5 
2015 年 3 月 21 4 
2015 年 4 月 25 6 
2015 年 5 月 41 5 
2015 年 6 月 38 6 
2015 年 7 月 71 7 
2015 年 8 月 72 6 
2015 年 9 月 66 6 
2015 年 10 月 24 6 
2015 年 11 月 34 5 
2015 年 12 月 29 5 
总 计 464 66 


4.1 主题 识别 结果 

利用 LDA 模 型 抽取 每 个 时 间 窗 口 的 主题 , 设置 两 
个 超 参数 为 a = 50/ 工 ，B = 0.0151。 选取 每 个 主题 中 分 
布 概率 Top20 的 单词 作为 主题 内 容 的 特征 词 。 表 2 列 
举 了 抽取 的 部 分 主题 (并 给 出 了 人 工 总 结 后 的 主题 内 
容 ) 及 其 特征 词 ( 仅 列举 前 10 个 )。 


表 2 2015 年 CNN 与 中 国 相关 的 部 分 主题 


主题 主题 内 容 主题 特征 词 (前 10 个 ) 

Tss 南海 军事 sea, south, island, military, navy, aircraft, flight, state, surveillance, warn 

Tea 南海 袭击 government, attack, state, sea, island, official, hack, federal, information, south 

Tio4 南海 领土 island, sea, operation, reef, south, water, freedom, beijing, dispute, territorial 

Tua 习近平 与 马英九 会 面 taiwan, ma, xi, meeting, beijing, president, relation, state, Singapore, mainland 

Tz3 希腊 经 济 Greece, bank, currency, russia, internet, growth, financial, government, economist, money 
Ta 柴 静 空气 污染 state, video, chai, government, xl, president, air, pollution, authority, documentary 

Taz 市 场 股票 state, investor, government, market, stock, growth, global, charge, unite, economic 

T71 股票 骨 盘 market, stock, economy, share, shanghai, financial, investor, trade, government, crash 


从 表 2 可 看 出 : LDA 模型 能 够 识别 每 个 时 间 窗 口 
内 的 新 闻 报 道 主 题 ， 主 题 的 类 别 包 括 军事 (Tss 、Ta、 
Tio4)、 政 治 (T1144)、 经 济 (Ty»3、Ta2、T71) 和 社会 民生 (Ts1) 
等 方面 。 各 主题 中 分 布 概率 较 高 的 主题 特征 词 能 够 涵 
盖 该 主题 的 内 容 。 以 5 月 份 的 第 3 个 主题 为 例 (Ts3), 该 
主题 与 中 国 南海 军事 主权 有 关 ，Top10 的 特征 词 为 : 


surveillance( 监 督 ), Warn( 和 警告 )。 
4.2 ”基于 ISOMAP 流 形 学 习 的 主题 关联 结果 

根据 3.3 节 中 叙述 的 方法 , 进行 基于 ISOMAP 流 
形 学 习 的 主题 关联 分 析 。 每 个 主题 选取 分 布 概率 最 高 
的 Top20 特征 词 ，64 个 主题 得 到 不 重复 的 特征 词 表 包 
括 657 个 特征 词 。 因 此 , 每 个 主题 表示 为 657 维 的 特 


sea( 海 洋 )， south( 南 方 )， island( 岛 屿 )， military( 军 事 )， 
navy( 海 军 )，aircraft( 航 空 器 )，fight( 飞 行 )，state( 声 明 )， 
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征 词 向 量 。 基 于 算法 1 的 流 形 学 习 步 又 , 将 64 个 657 
维 的 主题 向 量 映射 在 二 维 平面 上 ,图 3 为 64 个 主题 的 


ISOMAP 艇 入 变量 输出 ， 每 一 个 点 代表 一 个 主题 ， 每 
一 条 边 为 NOMAP 构建 的 主题 邻 域 图 中 主题 间 的 连 
接 边 。 
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Sh As 44 
RN pr 
-04 7 CAN py Ne 
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图 3 高 维 主题 向 量 的 二 维 ISOMAP 谈 入 变量 
输出 和 关联 


通过 分 析 发 现 主题 在 二 维 平面 上 的 位 置 与 该 主题 
的 特征 词 和 内 容 相关 。 主 题 在 二 维 平 面 上 被 聚 类 为 6 
大 类 , 分 别 为 : 黄色 (军事 )、 青 色 (政治 )、 橘 色 ( 经 济 )、 
红色 (科技 )、 蓝 色 ( 家 庭 / 孩 子 ) 和 绿色 (生活 )。 例如 , 黄 
色 节 点 标识 的 军事 类 主题 ， 主 要 与 南海 领土 问题 、 新 
疆 恐 怖 主义 、 藏 独 、 抗 日 战争 胜利 70 周年 大 阅兵 新 
闻 报 道 相关 ; 青色 节点 标识 的 政治 类 主题 ,主要 与 习 
主席 与 彭丽媛 夫人 出 访 、 李 克 强 总 理 访问 、 习 主席 与 
奥巴马 总 统 会 面 、 习 主席 访 美 等 相关 ; 橘 色 节 点 标识 
的 经 济 类 主题 , 主要 与 市 场 投 资 、 中 国 股市 泡沫 、 硕 
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洪 债 务 相 关 ; 红色 标识 的 社会 科技 类 主题 ， 主 要 与 谷 
歌 和 小 米 等 互联 网 公司 .工业 污染 波音 飞机 相关 ; 蓝 
色 节 点 标识 的 家 庭 /孩子 类 主题 ， 主 要 与 中 国 计 划 生 育 
政策 、 二 孩 放 开 、 孩 子 教育 、 张 国立 儿子 吸毒 等 事件 
相关 ; 绿色 节点 标识 的 生活 类 主题 ,与 空气 污染 、 柴 
静 《 穹 项 之 下 》 视 频 、 优 衣 库 试 衣 间 视 频 等 2015 年 
引起 媒体 广泛 讨论 的 民生 事件 相关 。 还 有 一 些 节 点 用 
灰色 标注 ， 这 些 节点 较为 分 散 , 与 上 述 6 大 节点 簇 距 

可 见 , 基于 ISOMAP 的 非 线性 降 维 算法 能 够 在 低 
维 租 入 平面 正确 表示 主题 之 间 的 关联 和 相互 作用 关 
系 ; 能 够 挖掘 隐藏 在 高 维 向 量 间 的 规律 、 对 相似 的 主 
题 进 行 无 监督 学 习 聚 类 。 即 : 基于 ISOMAP 的 非 线性 
降 维 算法 对 主题 的 聚 类 个 数 决定 于 主题 向 量 之 间 的 测 
地 线 距 离 , 不 需要 根据 先 验 知识 事先 确定 ， 优 于 现 有 
的 依赖 于 算法 初始 值 (如 聚 类 个 数 和 节点 位 置 等 ) 的 聚 
类 算法 (如 K-meansF)。 
4.3 ”主题 演化 结果 分 析 

基于 3.4 节 的 方法 , 利用 社会 网 络 理论 的 度数 ( 包 
括 出 度数 和 入 度数 )、 介 数 中 心 度 、 密 度 和 直径 指标 分 
析 由 ISOMAP 算法 得 到 的 二 维 平面 主题 关联 图 。 首先 
根据 公式 (10) 为 图 3 的 每 条 边 赋予 权重 , 借鉴 文献 [和 
的 方法 过 滤 权 重 值 小 于 阔 值 的 边 ( 取 阔 值 为 0.9), 并 利 
用 Pajek 软件 外 描绘 主题 之 间 的 演化 关系 如 图 4 所 示 。 
其 中 , 每 一 个 节点 代表 一 个 主题 , 有 线 弧 代表 主题 的 
演化 方向 。 如 经 济 类 主题 T,; 和 Ts 之 间 有 一 条 弧 , 表 
示 从 Ty 演变 到 Tp。 


利 
全 173 2 a 的 [65 时 T44 。 者 1 
事 T103 半 Daw 和 Tg 万 DTGl 
be T23 T35 音 
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图 4 2015 年 CNN 对 中 国 新 闻 报 道 的 主题 演化 关系 图 
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节点 和 有 向 弧 构 成 了 主题 的 演化 路 径 , 例如 从 图 4 
的 经 济 类 主题 中 抽取 一 条 路 径 为 (T?3， Ty, Ta, T71), 其 
Top3 主题 特征 词 分 别 为 Ty( 希 腊 、 银 行 、 债 务 )、Tas( 投 
资 、 市 场 、 增 长 )、T6es( 市 场 、 股 票 、 投 资 ) 和 Tn( 股 票 、 
经 济 危 机 、 泡 沫 )。 该 路 径 的 演变 过 程 为 : CNN 在 2015 
年 2 月 份 对 经 济 类 主题 的 报道 与 中 国 和 俄罗斯 是 否 干 
预 希腊 债务 有 关 , 3 月 份 没 有 对 经 济 类 主题 的 报道 , 4 


~ 


Bina i ms 
LnlInaxIV 已 


最 高 的 4 个 主题 是 To 、Tea、To 、Ti23， 主 题 的 内 容 ( 见 
表 4 加 黑 标注 的 关键 词 ) 分 别 为 股票 增长 /泡沫 、 南 海 
军事 安全 、 南 海 恐 怖 主义 效 击 、 南 海防 御 ; 这 些 主题 
在 主题 演化 关系 中 局 部 影响 力 较 高 。 而 Ta 、T9 、Tsi 
和 Te 为 度数 值 最 低 (等 于 0) 的 4 个 主题 ,此 外 还 有 
Tnn、T1s 由 于 篇 幅 关 系 不 一 一 列举 。 这 些 主题 表现 为 
孤立 主题 ,大 多 为 主题 含义 不 明确 (如 Ti 和 Tos) 或 某 


月 .6 月 和 7 月 的 经 济 类 主题 都 与 中 国 股票 市 场 相关 。 
由 此 可 见 , 新 闻 主 题 的 演变 并 不 一 定 遵循 相 邻 时 间 窗 
口 的 跨度 , 如 T23 和 To 之 间 、T 和 Te 之 间 。 
注意 到 5 月 份 有 涉及 经 济 类 主题 的 报道 (Ts), 但 
并 不 在 (Tw, Tw, Ta, Tn1) 演 化 路 径 中 ,而 是 在 另 一 个 经 
济 类 主题 的 演化 分 支 (T», Ts) 上 , 这 是 因为 To 除了 涉 ” 
及 少量 的 中 国 股票 市 场 泡沫 的 相关 报道 ， 主 要 涉及 中 
俄 经 济 、 中 国 百 万 富翁 增长 等 相关 报道 (参见 表 3 列举 二 China’s richest man lost $15 billion in one 
的 5 月 份 CNN 对 中 国 经 济 所 有 相关 报道 的 新 闻 标题 )。 。 中 国 言 宕 5 月 21 号 nour 
若 采用 在 相 邻 时 间 段 中 计算 任意 两 个 主题 的 特征 向 量 中 国 彰 
相似 度 的 方法 , 将 会 导致 To 和 Te 之 间 关 联 出 错 , 使 中 国 百 万 
得 演化 路 径 (T;，, ee T71) 断 烈 有 富翁 5 月 27 号 China has more than 1 million millionaires. 
根据 图 4 的 主题 演化 图 计算 每 个 主题 的 度数 。 表 4 。 ”中 国 经 济 
为 度数 值 最 高 和 最 低 的 4 个 主题 。 可 以 看 出 , 度数 值 泡沫 


表 4 度数 值 最 高 和 最 低 的 4 个 主题 


主题 关键 词 (Top20) 入 度 ”出 度 度数 


state, investor, government, market, stock, growth, power, global, charge, unite, economic, trade, 


个 事件 的 突 发 报道 (如 Ts, 神州 飞船 发 射 )。 
表 3 2015 年 5 月 CNN 与 中 国 经 济 相关 的 所 有 新 闻 标 题 
新 闻 内 容 时 间 新 闻 标 题 


Russia and China have had enough of 


中 俄 经 济 5 月 4 号 


western banking. 


China isn’t Russia’s answer to crisis with 
the West. 


也 


俄 经 济 5 月 11 号 


中 国 央行 5 月 19 号 China’s central bank is just getting started. 


China’s richest man bet his company’s 


了 


月 2 shares would fall. 


5 月 31 号 The next big bubble: Bonds, startups, China? 


Ta company, washington, suspect, bubble, bank, money, president, department 2 0 

To, government, attack, state, sea, island, official, hack, tederals information, south, unite, security, 6 3 9 
office, freedom, law, target, cybersecurity, military, personnel, international 

Ty sea, official, obama, WS US 二 cyber, Wisit; south, military, xi, state, dispute, espionage, beijing, 3 3 6 
step, attack, tension, security, unite, territorial 

Ti state, statement, unite, military, Pu island, defense, complain, sea, job, freedom, south, economic, 0 6 6 
dispute, death, rule, criticize, fly, flight, post 

T， musical, price, market, sun, sell, child, san, bao, baby, family, father, boy, bin, son, broadway, xiaomi, 0 0 0 
industry, police, production, man 

T; panda, police, clip, bomb, glass, suspect, sprout, bridge, stock, sell, giant, trend, man, wednesday, kill, 0 0 0 

- xinhua, money, thai, attack, Thursday 

Ts space, mission, shenzhou, astronaut, yang, kung, fu, opportunity, crewed, star, fei, wang, station, 0 0 0 
launch, man, war, center, return, zhang, nie 

Te, ship, yangtze, eastern, river, sink, star, cruise, state, capsize, rescue, water, passenger, june, authority, 0 0 0 


body, storm, board, tornado, monday, survivor 


( 注 : 加 黑 标注 的 关键 词 能 够 清楚 地 反映 主题 的 含义 , 因此 重点 标 出 。) 


对 于 图 4 的 主题 演化 图 , 计算 每 个 主题 的 介 数 中 ” 心 度 值 越 大 , 则 在 主题 演化 和 关联 关系 中 越 活跃 ， 媒 
心 度 。 表 5 按照 从 高 到 低 的 顺序 列举 了 介 数 中 心 度 不 。” 介 能 力 越 强 。 可 以 看 出 , 最 活跃 的 主题 为 南海 军事 主 
为 0 的 主题 及 其 人 工 总 结 的 主题 内 容 。 主 题 的 介 数 中  ” 题 , 其 次 为 经 济 主题 。 而 7 月 的 优 衣 库 主题 (T7,)、9 月 


有 下 现代 图 书 情报 技术 


的 纪念 抗日 战争 胜利 70 周年 的 阅兵 主题 (Ts)、9 月 习 
主席 出 访 美国 华盛顿 白宫 主题 (To) 、 中 国 放 开 二 孩 政 
策 主题 (Ta 、Tso 和 污染 问题 CT) 都 是 2015 年 度 受 到 
广泛 关注 、 引 起 媒体 热 议 的 主题 。 由 此 可 见 , 通过 介 
数 中 心 度 指标 能 够 找到 主题 演化 关系 中 的 活跃 主题 。 


表 5 介 数 中 心 度 值 不 为 0 的 主题 
主题 ” 介 数 中 心 度 主题 内 容 
Ta 0.00461 袭击 南海 安全 
Toi 0.00307 ”南海 争议 
Ta 0.00282 投资 市 场 增长 
Tss 0.00205 印度 交易 穆 迪 
To3 0.00179 ”北京 阅兵 战争 习 主席 军事 
Toe 0.00166 ”习近平 美国 奥巴马 华盛顿 白宫 
T7 0.00154 ，” 优 衣 库 性 视频 
Ta 0.00154 运动 伦敦 英国 足球 间谍 亚洲 
Ts 0.00090 ”美国 习 主 席 奥巴马 货币 贬值 
Tiog 0.00034 艺术 建筑 师 比赛 网 球 联赛 
To 0.00026 
Tos 0.00026 小 米 手机 市 场 科技 非洲 
Tis 0.00026 ”北京 温度 冷 北 辆 烟雾 零度 以 下 
Th 0.00026 弹道 导弹 军事 检阅 军官 防御 
Taz 0.00021 孩子 政策 人 口 数量 


Te 0.00021 孩子 家 庭 父母 政策 
T's 0.00013 6 场 股票 台湾 经 济 增长 金融 风暴 
Tn 0.00013 和 场 股票 经 济 危机 
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本 文 提 出 一 种 基于 流 形 学 习 的 新 闻 主题 关系 构建 
和 演化 研究 方法 , 利用 流 形 学 习 在 全 局 时 间 窗 口 对 新 
闻 领 域 的 主题 演化 进行 探索 , 通过 对 高 维 主 题 向 量 进 
行 非 线 性 降 维 并 在 低 维 空间 重新 定义 话题 间 的 距离 以 
实现 话题 的 关联 ， 并 借鉴 社会 网 络 理论 的 度数 、 介 数 
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对 于 图 4 的 主题 演化 图 , 计算 其 网 络 拓 扑 图 的 密 

度 为 0.02197266。 密 度 值 较 小 , 网 络 的 演变 关系 较为 
简单 ， 与 实际 情况 相符 。 
图 5 描绘 了 图 4 的 主题 演化 图 中 最 长 的 主题 演化 
路 径 ， 长 度 为 5, 为 (Ts4/Tas/Ts;, Toa, Tg, To, To;, T114)o 
这 条 路 径 描绘 了 2015 年 CNN 媒体 对 我 国 军事 和 政治 
主题 报道 的 演化 过 程 , 从 3 月 、4 月 份 的 徐才厚 、 周 
永康 事件 , 到 5 月 、6 月 份 的 南海 事件 , 到 8 月 份 中 
美 讨论 网 络 安全 事件 ， 再 到 9 月 份 的 纪念 抗日 战争 胜 
利 70 周年 阅兵 事件 ,最 后 到 12 月 份 习 主席 和 马英九 
在 新 加 坡 会 面 事件 。 

综合 上 述 分 析 可 得 , 实验 结果 与 实际 情况 较为 相 
符 , 可见 基 于 流 形 学 习 的 主题 关系 构建 和 演化 分 析 方 
法 能 够 在 全 局 时 间 跨 度 建立 主题 的 关联 关系 ,挖掘 主 
题 关 联 关系 间 隐 藏 的 规律 并 表征 主题 演化 关系 。 该 方法 
一 方面 克服 高 维 主题 特征 向 量 之 间 的 相似 度 计算 带 来 
的 维 数 灾 难 问题 ， 能 够 在 低 维 平 面 输出 主题 的 关联 关 
系 图 ,实现 无 监督 的 主题 聚 类 和 关联 ; 另 一 方面 避免 了 
相 邻 时 间 窗 口 的 主题 关联 失效 而 导致 的 全 局 主题 演化 
链 断 裂 ， 实验 结果 也 表明 新 闻 报 道 的 演化 并 不 遵循 传统 
主题 演化 研究 设 定 的 相 邻 时 间 窗 口 跨度 , 而 是 具有 不 确 
定性 和 突 发 性 ; 最 后 ,基于 社会 网 络 相 关 指标 能 够 较 好 
地 对 新 闻 报 道 的 主题 演化 结果 进行 分 析 和 评价 ,找到 主 
题 演化 过 程 中 局 部 影响 力 较 高 的 、 较 为 活跃 的 主题 。 


习近平 和 马英九 会 面 


长 距离 的 主题 演化 路 径 示 意图 


中 心 度 、 密 度 和 直径 指标 分 析 主 题 的 演化 结果 。 

以 2015 年 美国 CNN 网 站 对 中 国 相关 的 新 闻 报道 
为 例 对 该 方法 的 有 效 性 进行 验证 , 得 出 以 下 结论 : 非 
线性 降 维 处 理 能 够 在 低 维 上 谨 入 平面 正确 表示 主题 之 间 
的 关联 , 并 且 能 够 挖掘 隐藏 在 高 维 向 量 间 的 规律 、 实 
现 对 高 维 主题 向 量 的 约 简 和 可 视 化 ; 通过 社会 网 络 的 
度数 和 介 数 中 心 度 指 标 能 够 找到 话题 演化 关系 中 局 部 
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影响 力 较 大 和 较 活跃 的 话题 , 通过 密度 和 直径 指标 描 
绘 整体 的 话题 演化 关系 ,并 得 到 每 一 条 主题 演化 路 
径 。 下 一 步 工 作 是 研究 不 同时 间 窗 口 长 度 对 主题 演化 
结果 的 影响 以 及 基于 可 变 时 间 窗 口 的 主题 演化 分 析 。 
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Analyzing Evolution of News Topics with Manifold Learning 


Xu Yuemeil LiYang”” LiangYe! Cai Lianqiao: 
!(Department of Computer Science, Beijing Foreign Studies University Beijing 100089, China) 
(Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, China) 
(University of Chinese Academy of Sciences, Beijing 100049, China) 


Abstract: [Objective] This study aims to examine the creation and development of online news topics, and then to 
gauge the public opinion. [Methods] First, we introduced the manifold learning technology to analyze the news topics. 
Second, we explored the relations among the high dimensional topics from each time window, which were identified by 
the LDA model. Third, we clustered these topics and visualized the relations among them in the low-dimensional space. 
Finally, we analyzed the topic evolution with the help of social network theorem. [Results] The proposed method could 
effectively identify the topic evolution trends of news reports on China from CNN in 2015. [Limitations] We did not 
fully explore the impacts of time windows. [Conclusions] This study provides a new method to visualize the evolution 
of news report topics over a period of time, which avoids inaccurate description due to the changing of adjacent time 
windows. 
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